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iE: 【 目的 ] 在 基于 多 构 面 信任 关系 的 个 性 化 推荐 中 , 解决 构 面 难以 定义 以 及 传统 信任 强度 计算 方法 的 局 限 所 
导致 的 推荐 准确 性 低 的 问题 。[ 方法 】 提 出 一 种 基于 标签 簇 的 多 构 面 信任 关系 定义 的 方法 , 在 标签 聚 类 得 到 的 标 
签 簇 基础 上 , 引用 TF-IDF 思想 及 Pearson 相似 度 定义 簇 间 和 簇 内 信任 关系 , 构建 有 利于 反映 不 同 构 面 信任 强度 
的 信任 张 量 , 并 融入 基于 张 量 分 解 模型 的 个 性 化 推荐 算法 中 。[ 结果 ] 基于 Last.fm 数据 集 的 仿真 实验 表明 : 从 准 
HR ABRA F 值 各 项 指标 上 , 本文 提出 的 个 性 化 推荐 算法 均 有 良好 表现 , 在 Fl 值 上 平均 提升 达 2.29%。 
[ 局限 ] 仿真 实验 未 针对 其 他 领域 的 数据 集 进行 进一步 验证 ,， 如 微 博 、Twitter 等 。[ 结论 】 基 于 标签 簇 多 构 面 信 
任 关系 的 个 性 化 推荐 算法 通过 有 效 定义 并 全 面 、 客 观 地 量化 用 户 间 信任 关系 ,从 而 实现 推荐 准确 性 的 提高 ， 有利 


于 社交 网 络 环境 下 提供 更 令 用 户 满意 的 资源 。 
关键 词 : 个 性 化 推荐 UGC 标签 ” 张 量 分 解 
分 类 号 : F224.39 TP391 TP181 


多 构 面 信任 


1 5l 


UGC(User Generated Contenb) 标 签 作为 Web2.0 时 
代 基 于 互联 网 的 社会 环境 中 随处 可 得 的 重要 资源 ,， 既 
是 大 众 用 户 群 体 智慧 的 体现 由 也 反映 了 用 户 兴趣 和 
网 络 资 源 特征 , 成 为 有 效 组 织 用 户 或 资源 信息 的 重要 
FE. Am, UGC 标签 不 仅 起 到 联系 用 户 和 资源 的 纽 
带 作 用 ,相似 的 标签 一 定 程度 上 也 反映 了 用 户 的 某 类 
兴趣 以 及 与 这 类 兴趣 对 应 的 资源 。 同 时 , 在 社交 网 络 
中 的 好 友 关 系 能 够 为 推荐 系统 提供 诸多 有 价值 的 信 
息 ， 用 户 会 更 加 信任 好 友 的 推荐 由 较 多 文献 表明 基 
于 信任 的 推荐 系统 能 够 提供 额外 的 用 户 相 似 信 息 ,， 提 
高 推荐 准确 性 pim, 在 个 性 化 推荐 算法 优化 研究 
中 ,对 社交 网 络 上 大 量 标签 信息 中 反映 出 来 的 好 友 间 
共同 兴趣 偏好 加 以 考虑 ， 对 改进 推荐 算法 准确 性 具有 
重要 意义 。 
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对 于 信任 关系 的 研究 发 现 : 由 于 信任 网 络 构成 复 
AR, 好 友 并 不 等 于 相似 用 户 且 差别 较 大 , 因此 信任 关 
系 不 适合 单独 用 于 个 性 化 推荐 , 通常 被 作为 基础 推荐 
系统 的 补充 中 。 据 此 ,， 丁 小 焕 等 在 张 量 分 解 模型 的 基 
础 上 构建 整合 基于 项 目 信 任 和 基于 标签 信任 的 线性 模 
型 提升 了 推荐 准确 性 外。 另外, 现 有 基于 信任 的 推荐 
系统 多 只 考虑 单一 方面 的 用 户 间 信任 关系 已， FXE, 
无 论 是 线 上 还 是 线 下 好 友信 任 关 系 多 只 建立 在 某 些 兴 
趣 上 ,而 非 好 友 间 的 所 有 兴趣 爱好 都 相似 ,因此 区 分 
各 个 兴趣 面 上 用 户 间 信任 能 够 更 精确 地 为 系统 提供 额 
外 信息 , 学 术 上 将 这 种 在 不 同 兴趣 面 上 的 信任 关系 称 
之 为 多 构 面 信任 关系 (Multi-faceted Trust)! 

多 构 面 信任 关系 在 个 性 化 推荐 领域 已 有 相关 人 研 
究 , Quinn 等 通过 调查 问卷 的 方式 以 演员 推荐 为 例 , UT 
究 基于 多 构 面 信任 的 推荐 精确 度 问 题 ， 发 现 信任 风险 
越 高 ,， 精确 度 越 低 中 。Peng 等 将 博客 网 站 中 的 博文 分 
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成 6 大 类 , 并 通过 在 线 实验 的 方式 让 用 户 对 每 篇 博文 
评分 , 再 通过 在 线 调查 得 到 用 户 的 好 友信 息 ,由 此 得 
到 好 友 间 的 多 构 面 信任 关系 "~"。 这 类 研究 通常 需要 将 


做 法 的 核心 思想 与 李 瑞 敏 等 的 看 法 一 致 , 即 如 果 一 个 
项 目 和 一 个 用 户 拥有 共同 的 标签 越 多 , 那么 该 用 户 与 
该 项 目 之 间 的 关联 程度 越 高 。 个 体 共 现 相似 度 刻 面 


资源 主观 划分 为 多 个 构 面 ， 而 在 实际 的 博客 型 社交 网 
络 中 , 面 对 大 量 的 不 同类 型 的 资源 , 这 种 定义 方式 容 
易 出 错 ， 且 缺乏 合理 性 。 

Tang 等 也 将 所 有 资源 分 成 看 干 类 别 作为 构 面 , 根 
据 用 户 对 资源 的 评分 信息 构建 信任 张 量 中, 详细 阐述 
了 多 构 面 下 信任 张 量 的 定义 过 程 , 构建 了 基于 多 构 面 
的 用 户 向 量 空间 模型 ， 即 用 户 在 各 个 构 面 的 评分 值 作 
为 用 户 向 量 , 通过 余弦 相似 度 计 算 用 户 间 的 信任 强度 
作为 权重 融入 协同 过 滤 算 法 ,并 线性 整合 多 构 面 下 基 
于 资源 的 协同 过 滤 算 法 ， 有效 提高 了 预测 准确 度 [。 
其 主要 不 足 在 于 : 一 方面 ,其 研究 的 网 站 本 身 己 将 资 
源 划分 为 不 同类 别 , 但 对 于 微 博 和 Twitter 等 一 些 没有 
资源 分 类 的 社交 网 络 , 还 需要 解决 构 面 定义 的 问题 ; 
另 一 方面 , 余弦 相似 度 计算 信任 关系 存在 局 限 性 : 属 
于 同一 构 面 的 资源 理应 具有 一 定 相似 性 ， 而 如 果 两 个 
用 户 在 同一 个 构 面 内 对 多 个 资源 进行 评分 , 但 很 少 有 
共同 资源 评分 记录 , 那么 根据 余弦 相似 度 计算 出 的 用 
户 间 信任 关系 会 趋向 更 小 ,， 且 随 着 资源 量 的 增 大 趋 近 
于 0, 这 显然 与 实际 不 符 。 

综 上 , 本 文 首先 提出 基于 标签 复 的 用 户 间 多 构 面 
信任 关系 的 构建 方法 以 高 效 地 解决 构 面 定义 困难 的 问 
题 ， 即 引用 基于 标签 综合 共 现 的 谱 聚 类 , 将 标签 聚 类 
产生 的 标签 簇 作为 构 面 定义 的 依据 来 构建 信任 张 量 ， 
融入 基于 张 量 分 解 模型 的 个 性 化 推荐 算法 中 ; 其 次 通 
过 定义 复 间 和 簇 内 信任 关系 以 避免 余弦 相似 度 计 算 信 
任 强 度 的 局 限 ; 最 后 , 通过 仿真 检验 改进 算法 的 推荐 
准确 性 。 
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对 标签 数据 进行 聚 类 ， 一 方面 能 够 在 张 量 分 解 
前 削弱 标签 元 余 及 语义 模糊 带 来 的 影响 ,在 消除 品 
音 数 据 的 同时 凸显 语义 关系 ,， 有 利于 提升 推荐 准确 
性 ; 另 一 方面 聚 类 得 到 的 标签 复 是 获得 信任 构 面 的 
重要 依据 。 

在 聚 类 算法 的 选择 上 ，Li 等 提出 改进 的 标签 共 现 
结合 谱 聚 类 的 方法 ， 其 将 作为 谱 聚 类 输入 的 标签 相似 
度 并 分 为 个 体 共 现 相似 度 和 群体 共 现 相 似 度 站。 这 种 


了 两 个 标签 间 最 根本 的 联系 ,而 群体 相似 度 增强 了 标 
签 间 的 语义 关系 , 可 看 作 是 对 个 体 相似 度 的 补充 。 通 
过 综合 共 现 相似 度 将 个 体 和 群体 共 现 相似 度 相 结 合 ， 
可 以 更 好 地 表达 标签 之 间 的 相似 关系 。 这 种 方法 相 比 
传统 聚 类 方法 的 优势 在 于 : 不 用 将 三 元 组 分 割 成 二 元 
组 的 形式 定义 标签 的 相似 度 , 能 够 完整 地 保留 用 户 、 
标签 及 资源 三 者 间 的 语义 关系 ; 基于 图 论 的 谱 聚 类 算 
法 更 有 利于 发 现 不 规则 的 复 ， 从 而 更 好 地 实现 对 零散 
标签 的 聚 类 ,更 好 地 凸显 语义 关系 ,解决 标签 元 余 及 
语义 模糊 问题 ， 以 提升 推荐 的 准确 性 。 

因此 , 本文 引入 基于 综合 共 现 的 谱 内 类 方法 用 
于 张 量 分 解 前 的 数据 预 处 理 , 在 解决 标签 元 余 问 题 
的 同时 聚 类 产生 的 标签 簇 也 为 定义 用 户 间 信任 关系 
提供 了 基础 ， 每 个 标签 禾 内 的 标签 之 间 具 有 和 较 强 的 
相似 性 ,作为 连接 用 户 和 资源 的 特征 ， 这 类 标签 代表 
了 用 户 喜 欢 的 某 种 资源 主题 4 也 代表 了 某 类 用 户 
的 某 类 兴趣 。 
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在 通过 谱 聚 类 对 标签 数据 进行 有 效 清理 并 结合 改 
进 张 量 分 解 模 型 凸显 < 用 户 , 标签 禾 ， 资源 > 三 者 间 的 
语义 关系 的 基础 上 , 融合 社交 网 络 中 用 户 的 信任 关系 
信息 , 将 进一步 提高 推荐 的 准确 性 。 但 是 实际 上 用 户 
间 的 信任 关系 通常 更 多 地 只 是 建立 在 双方 某 些 甚至 某 
个 方面 的 共同 爱好 上 , 例如 如 果 两 个 用 户 wu 和 ws 都 
喜欢 听 民 谣 , 那么 他 们 之 间 可 能 会 建立 信任 关系 , 但 
us 可 能 还 喜欢 摇滚 而 好 不 喜欢 ,那么 如 果 基于 二 者 
的 这 种 简单 的 信任 关系 将 所 有 zw 喜欢 的 音乐 推荐 给 
u, 就 不 合适 。 相 比较 基于 单一 构 面 的 信任 关系 , 通过 
构建 信任 张 量 定义 不 同 构 面 下 的 用 户 间 信任 关系 11 
更 有 利于 有 效 提高 推荐 的 准确 性 。 

但 在 社交 网 络 中 , 标签 的 语义 纷繁 复杂 ,要 划分 
出 不 同 构 面 并 将 所 有 标签 按照 一 定 的 规则 分 配 到 这 些 
构 面 中 , 仅 通 过 专家 或 者 人 工 方 法 很 难保 证 划分 的 准 
确 性 , 反而 会 造成 语义 错乱 。 而 前 文 提 到 通过 标签 聚 
类 的 方式 将 标签 较为 准确 地 自动 划分 到 不 同 的 簇 中 ， 
且 基 于 综合 共 现 的 谱 聚 类 算法 较为 完整 地 涵盖 了 所 有 
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用 户 的 兴趣 偏好 ,因此 考虑 将 聚 类 得 到 的 标签 复 作 为 
反映 用 户 不 同 兴趣 的 构 面 , 将 两 两 用 户 间 多 构 面 的 信 
任 关系 扩展 到 所 有 用 户 就 形成 了 三 维 形式 的 < 用 户 ， 
AI, 用 户 > 信 任 张 量 。 

SIRERE B eRMa, Urs ure 分别 表 
示 数 据 集 中 用 户 、 标 签 艇 的 数量 ; 令 张 量 内 元 素 为 
h(u,,C ;,u,) €[0,1] 表示 wu 对 w TE C; ffe ER fi ER 
BE, 该 值 越 高 说 明 信 任 关系 越 紧密 或 者 说 两 个 用 户 在 
同一 兴趣 构 面 上 的 相似 度 越 大 ， 如 果 a=b 则 
h(u,,C,,u,) zl. 
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对 张 量 中 元 素 即 信任 强度 的 定义 是 构建 多 构 面 信 
任 张 量 的 核心 ,本文 将 其 分 为 簇 内 和 簇 间 信 任 关 系 两 
部 分 。 

事实 上 在 Ad Hoc 网 络 中 ,， 有 较 多 成 果 通 过 簇 间 
和 簇 内 信任 的 概念 定义 网 络 节点 间 的 信任 关系 。 金 瑜 
等 在 网 络 恶意 节点 过 滤 技 术 的 研究 中 ,提出 基于 双 层 
信任 模型 TLT 的 簇 内 和 簇 间 服 务 信任 的 概念 ,并 通过 
线性 加 权 得 到 网 络 节 点 间 的 综合 服务 信任 关系 , 据 此 
快速 有 效 地 发 现 恶意 节点 站 。Chen 等 为 了 解决 移动 
Ad Hoc 网 络 中 节点 动态 变化 导致 的 较 难 建立 节点 间 
信任 关系 的 问题 , 将 网 络 分 成 多 个 带 簇 首 的 节点 簇 ， 
首次 引入 簇 内 信任 的 概念 为 陌生 节点 提供 额外 的 信任 
信息 中。Ad Hoc 网 络 节点 之 间 本 身 存 在 一 定 联系 , 可 
以 通过 考察 节点 间 的 历史 交易 行为 得 到 中 。 而 社交 网 
络 环境 下 ,UGC 标签 之 间 不 存在 直接 联系 , 且 同 标 多 
义 和 多 标 同 义 的 情况 普遍 存在 , 不 同 用 户 可 能 使 用 同 
一 标签 簇 内 的 不 同 标 签 , 也 可 能 使 用 不 同 标签 徐 内 但 
是 相同 的 标签 ， 从 而 增加 了 用 户 间 信 任 关 系 的 复杂 
性 。 由 此 可 见 , Ad Hoc 网 络 领域 基于 节点 聚 类 的 节点 
间 信 任 关系 的 定义 完全 不 适用 于 社交 网 络 用 户 间 基 于 
UGC 标签 的 信任 关系 的 定义 问题 , 但 是 , 本文 借鉴 其 
思想 ,提出 基于 标签 复 的 篮 内 和 簇 间 信任 关系 的 概念 ， 
作为 额外 的 信任 信息 相互 补充 ， 从 而 完整 全 面 地 表达 
社交 网 络 用 户 间 信 任 关系 的 强度 。 

不 同 于 Ad Hoc 网 络 节点 间 信 任 关系 的 定义 , 本 
文 关 于 社交 网 络 用 户 信 任 关 系 是 基于 标签 簇 进行 定义 
的 ， 即 通过 定义 在 标签 徐 上 的 簇 内 和 簇 间 信任 关系 度 
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量 用 户 间 信 任 关 系 的 强度 ,而 非 度量 标签 之 间 关 系 。 
同时 ， 基 于 标签 聚 类 的 信任 关系 定义 还 有 效 解决 了 构 
面 划分 的 问题 ,基于 标签 徐 的 构 面 方法 具有 客观 、 高 
效 等 特点 。 

计算 信任 强度 需要 解决 以 下 两 个 关键 问题 : 

问题 1: 现 有 成 果 大 多 根据 余弦 相似 度 计算 表示 
信任 强度 的 权重 中 5， 假如 z 和 w 都 使 用 过 某 标签 
复 的 标签 ， 且 两 人 使 用 的 标签 完全 不 同 , 那么 即使 他 
们 使 用 过 很 多 这 个 标签 簇 的 标签 ,根据 余弦 相似 度 ， 
两 者 的 信任 度 也 是 0。 但 聚 类 后 在 同一 标签 复 的 标签 
间 有 一 定 的 相似 性 ， 因 而 wu, 和 ww 应 具有 一 定 的 信任 
强度 。 由 此 可 以 认为 单纯 通过 余弦 相似 度 计算 基于 标 
签 复 的 信任 强度 会 产生 度量 失真 的 问题 。 

因而 , 通过 定义 簇 间 信任 关系 (Inter-cluster Trust) 
考虑 用 户 对 标签 徐 整 体 的 标注 偏好 ,有 利于 判断 单个 
复 上 用 户 间 的 相关 性 。TEF-IDF(Term Frequency-Inverse 
Document Frequency) 中 的 TF 思想 用 于 定义 词 在 文章 
中 的 出 现 频 率 , 出 现 频率 越 高 的 词 越 有 可 能 表达 文章 
内 容 。 本 文 借鉴 TF 思想 定义 标签 复 中 的 标签 在 用 户 
所 有 使 用 过 的 标签 中 的 出 现 频率 ， 出 现 频率 越 高 ， 越 
能 够 代表 标注 用 户 的 主要 兴趣 ， 即 AM 分 子 表 
Zh HP u; TERRAE C, 中 标注 的 次 数 ， 分 母 表示 用 户 
二 在 所 有 标签 复 中 标注 的 次 数 。 因 此 对 于 用 户 妈 和 
uy 来 说 ， 如 果 他 们 是 好 友 关 系 ,两 人 对 某 一 标签 簇 共 
同 的 兴趣 程度 即 为 簇 间 信 任 关系 ， 可 以 定义 为 : 
d(u,.C,) d(u,.C, 

ier i EX i M 

问题 2: 簇 间 信 任 关 系 实际 上 考察 的 是 用 户 对 标 
签 簇 的 偏好 , 但 是 否 还 需要 考察 用 户 对 簇 内 标签 的 偏 
好 呢 ? 

实际 上 仪 仅 考 虑 簇 间 信任 关系 是 不 够 的 。 社 交 网 
络 环境 下 标签 数据 的 高 稀疏 性 特点 难免 会 影响 聚 类 的 
效果 ,除了 可 以 对 数据 进行 清洗 降低 误差 外 , 也 可 以 
通过 衡量 复 内 标签 的 使 用 情况 辅助 判断 。 即 ， 将 簇 内 
信任 关系 (ntra-cluster Trust) 与 艇 间 信 任 关系 结合 ， 同 
时 反映 簇 内 和 敌 间 的 用 户 相 似 度 , 这样 有 利于 完整 地 
表达 用 户 之 间 在 不 同 构 面 上 的 信任 关系 。 

通常 , 在 构建 标签 的 向 量 空间 模型 (VSM) 基 础 上 ， 
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利用 常见 的 余弦 相似 度 、Pearson 相似 度 及 欧式 相似 度 
公式 来 计算 信任 强度 馈 。 但 Zhen 等 发 现在 标签 系统 中 ， 
Pearson 相似 度 结合 Sigmoid 函数 的 方法 相 比 其 他 方法 
能 够 获得 更 加 精确 的 结果 号 ， 因 此 本 文 利用 这 种 方法 


用 户 更 可 能 在 某 些 兴趣 上 有 相似 性 请 ， 因 而 用 户 的 好 
友 即 可 视 为 相似 用 户 。 丁 小 焕 等 正 是 基于 上 述 思 想 , 将 
好 友信 息 乘 以 单 构 面 信任 强度 并 融合 到 推荐 算法 中 四 。 

此 , 本文 考虑 将 信任 张 量 B 中 的 作为 好 友信 息 的 权 


定义 用 户 wu MAF u, TE C; 簇 的 艇 内 信任 关系 , 表示 
如 下 : 


b2 (o, Cpu o, C; X, c.i, Ee OQ, C, ) 


i. cl 
Fe, (usus) i- z 2 E 3 
> (6, cn m €, C; ) X C, C ji, E Q, c;) 
iel iel 
(2) 
1 
TATe, (us, Up) = (3) 


1+ exp(-Fe, (2p)) 
其 中 ，w ci 和 mw cy 分 别 表示 用 户 w 和 用 户 
u, JH C, rb SAONE i ECHTE ONG a, cR 
3, c, RRIP ug Ru, f C rb EUER C 
为 了 将 处 在 同一 层面 但 重要 程度 不 同 的 因素 整 
合 起 来 , 通常 采用 线性 相 加 的 方法 由， 本 文 考虑 将 簇 
间 和 簇 内 信任 关系 线性 相 加 ,通过 参数 g e[0,1] 表达 
两 部 分 对 于 信任 强度 的 贡献 ， 即 可 得 到 用 户 间 在 给 定 
标签 徐 上 的 信任 关系 ， 即 信任 张 量 B, 中 的 任意 元 素 可 
表示 为 : 
h(u,,C;,uj)— alETe, (uy, Up) * (1— a )ATc. (u4 ug) 


(4) 
EH FAR MNAE EE IRE T HP c p A e HH 
kr, Wi, ARRERA BI LEO RH 
占据 了 更 加 重要 的 地 位 。 据 此 初步 判断 & 的 取 值 应 大 
于 0.5, 该 参数 的 最 优 取 值 将 通过 后 续 仿真 实验 得 到 。 


5 融合 信任 张 量 的 个 性 化 推荐 算法 


由 于 张 量 分 解 之 前 进行 了 标签 综合 共 现 谱 聚 类 ， 
将 < 用 户 , 标签 ,资源 > 三 元 关系 转换 成 < 用 户 , 标签 
f, 资源 > 的 形式 ， 因 此 通过 计算 同一 用 户 对 同一 资源 
在 同一 标签 簇 中 的 标注 次 数 , 将 原先 基于 < 用 户 , 标 
Ax, 资源 > 的 初始 张 量 进行 适应 性 改变 , 形成 < 用 户 ， 
fW, 资源 > 初始 张 量 请 ; 再 运用 HOSVD-HOOI 算 
法 对 初始 张 量 进行 分 解 1， 选择 保留 70% 的 原始 信息 ， 
从 而 得 到 近似 张 量 。 

基于 邻 域 的 协同 过 滤 思 想 是 利用 相似 用 户 过 去 的 
行为 预测 目标 用 户 的 偏好 ， 而 研究 表明 有 信任 关系 的 


重 融 入 原先 的 张 量 模型 中 为 目标 用 户 提供 额外 信息 。 
令 融 合 后 的 张 量 中 的 任意 元 素 为 Qu Cr), 
o'u, Cp) 则 表示 张 量 中 的 一 条 纤维 ， 即 在 C; i, u; 
列 上 的 行 向 量 。 于 是 每 个 用 户 在 每 个 构 面 上 对 所 有 次 

源 的 最 终 标注 情况 可 以 通过 以 下 公式 表达 : 
1 


0'(u;,Cj,.) = olu; Cj»:) + X h(u;,C ; uj) ou, Cs:) 


TACA) le fr(u;) 
(5) 

Ah, fusil fa =l fue Brun) 表示 用 户 ui 
的 好 友和 集合 , 而 6， 为 好 友和 矩阵 ， 其 中 元 素 为 f. 
WR u, 和 wi 间 存 在 好 友 关 系 ， W fs = ful, 和 否则 
为 0, 另外 fs =0; [friu)| 是 用 户 w 的 好 友 数 量 。 

由 于 信任 关系 信息 适合 作为 推荐 模型 的 补充 , 将 
目标 用 户 w 与 其 好 友 在 不 同 构 面 下 的 信任 强度 作为 
BUE h(u; C; uj) 乘 以 其 在 该 构 面 (标签 秘 ) 下 对 所 有 资 
源 的 标注 记录 w(w,C;,:) , 求 均 值 后 作为 补充 信息 与 
自身 的 标注 记录 相 加 得 到 修正 的 推荐 张 量 B 。 

从 现实 使 用 场景 的 角度 出 发 ， 当 用 户 w 点 选 某 个 
标签; 后 ,系统 会 查询 1 所 属 的 标签 能 C) ， 再 找到 访 
用 户 张 量 中 目标 标签 能 C) F o'u, C) 最 高 的 NN 个 
资源 , 推荐 给 用 户 ， 从 而 完成 推荐 。 


6 ”仿真 实验 


61 数据 集 的 选择 

本 文选 用 的 Last.fm 数据 集 自 2011 年 第 5 届 推 荐 
系统 国际 会 议 发 布 以 来 被 广泛 应 用 , 其 中 包括 2005 年 - 
2011 年 间 1 892 名 用 户 对 17 632 名 歌手 的 标注 和 收听 
的 记录 , 产生 标签 11 946 个 , 标注 行为 186 479 次 , 并 
且 有 双向 好 友 关 系 12 717 对 ( 即 单项 关系 25 434 条 )。 
为 了 提高 运行 效率 对 原始 数据 集 进行 和 选 。 首 先 ,为 
避免 冷 启动 问题 , 根据 只 保留 用 户 、 标 签 、 资 源 出 现 
次 数 较 多 的 记录 原则 , 选 出 标注 次 数 大 于 70 的 用 户 和 
歌手 ; 其 次 , 为 避免 机 器 人 恶意 评分 影响 数据 集 质量 ， 
筛选 标注 次 数 小 于 3 000 次 的 用 户 ; 最 后 ， 筛选 出 使 用 
次 数 大 于 20 次 的 标签 以 避免 标签 数据 高 稀 玻 性 对 聚 
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类 效果 的 影响 。 最 终 得 到 的 核心 子 集 包 括 444 位 用 户 、 
275 个 标签 及 372 位 歌手 , 共 37 749 条 有 效 记 录 , 平均 
每 位 用 户 有 4.07 个 好 友 。 随机 选择 80% 的 数据 作为 训 
练 集 ， 剩 余 的 20% 作 为 测试 集 。 

在 训练 集中 的 所 有 用 户 都 会 被 随机 分 配 一 个 自己 
曾经 使 用 过 的 标签 , 通过 算法 得 出 每 位 用 户 的 一 个 
TopN 列表 , 通过 与 测试 集中 对 应 用 户 标注 的 资源 进 
行 比较 得 到 有 效 推荐 结果 ,从 而 计算 得 到 该 算法 的 性 
能 指标 。 
6.2 ”性 能 评价 指标 的 选择 

推荐 准确 性 是 评价 推荐 算法 性 能 的 重要 指标 ， 目 
前 较为 主流 的 TopN 推荐 结果 准确 性 评价 指标 包括 
准确 率 (Precision), 召回 率 (Recall) 及 F1 指标 , 其 中 前 
两 者 相互 影响 ， 因 此 选择 使 用 准确 率 -召回 率 曲线 来 
定性 地 反映 准确 性 的 变化 趋势 ; 同时 F1 指标 作为 两 
者 的 调和 平均 数 能 够 定量 地 反映 算法 之 间 的 差距 请 )， 
因此 还 选择 F1 指标 评价 系统 的 准确 性 。 


仿真 实验 重复 10 次 , 对 每 个 指标 求 其 10 次 内 的 
均值 作为 实验 结果 。 
6.3 ”参数 优化 

本 文 提出 的 推荐 算法 中 有 两 个 主要 参数 对 最 终 推 
荐 结果 有 较 大 影响 : 类 簇 个 数 及 a 值 。 

类 簇 个 数 对 于 提高 推荐 算法 的 准确 率 绝对 值 有 一 
定 影 响 , 由 于 本 文 研究 的 目的 是 为 了 通过 融合 多 构 面 
信任 关系 来 提升 推荐 准确 性 , 因此 仿真 对 比 实验 中 应 
尽 可 能 排除 聚 类 算法 带 来 的 差异 ， 所 以 对 比 算法 均 基 
于 同一 种 谱 聚 类 , 日 还 要 保证 每 个 算法 中 使 用 相同 的 
类 簇 个 数 。 对 于 本 文采 用 的 谱 聚 类 ,可 以 通过 寻找 最 
优 模块 度 (Modularity Metric) hy 77 12; P^ fg E Exe EE 2I e 
个 数 为 5 类 。 

算法 中 的 参数 o: 则 需要 通过 仿真 实验 的 方法 寻 
找 最 优 的 w 值 使 得 推荐 准确 度 达 到 最 高 。 对 w 从 0 到 
1 取 0.05 为 步 长 , 循环 构建 新 的 信任 张 量 以 及 推荐 模 
型 并 计算 不 同 推荐 长 度 下 (CN = {10,15,…,50} ) 的 1 值 ， 


再 求 此 次 循环 下 的 F1 均值 即 Fly = W Y Fin. i 
neN 


此 绘制 随 a 变化 的 F1 值 变 化 曲线 。 

从 图 1 可 以 看 到 , 仿真 实验 证 实 : 簇 间 信任 度 较 
徐 内 信任 度 在 准确 性 上 更 加 重要 ; BE o RUNE, SE 
间 信 任 度 的 权重 增 大 ，F1 值 也 随 之 呈 上 升 趋势 ,并 在 
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a = 0.85 时 达到 最 大 值 。 这 说 明 相 比 传统 利用 余弦 相 
似 度 计算 信任 强度 的 方法 ( 即 æ =0 时 的 公式 (4)), 改 
进 后 的 算法 能 够 有 效 提升 推荐 准确 性 。 


0.325 


0.324 
0.323 
0.322 上 


0.321 r 


FI 


0.320 
0.319 上 
0.318 | 


0.317 : 
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图 1 不 同 Q 值 在 Fl 指标 下 的 对 比 


6.4 ”对比 算法 的 选择 

仿真 实验 模拟 用 户 通过 选择 一 个 过 去 使 用 过 的 标 
签 得 到 一 个 TopN 列表 的 场景 ,对比 从 Top10 到 Top50 
每 增加 5 个 推荐 资源 时 不 同 算法 的 性 能 指标 。 

性 能 的 对 比 和 算法 的 选择 原则 如 下 : 

(1) 对 比 融 入 用 户 间 信任 张 量 前 后 算法 的 推荐 准 
确 性 ， 因 而 选择 未 加 入 信任 张 量 的 基于 综合 共 现 谱 聚 
类 的 张 量 分 解 算法 (简称 CoSCluTD), 以 验证 本 文 提出 
的 基于 标签 簇 多 构 面 信任 关系 算法 Multi-faceted 
TrustCoSCluTD 算法 (简称 MFTCoSCIuTD，c = 0.85 ) 对 
推荐 准确 性 的 提升 作用 。 

Q) 为 了 对 比 单一 构 面 和 多 构 面 信任 关系 对 算法 
推荐 准确 性 的 影响 , 选择 未 融合 信任 张 量 的 基于 单一 
构 面 信任 关系 的 推荐 算法 Simple Trust-CoSCluTD(ftij 
称 为 ST-CoSCluTD), 即 用 户 w 在 任意 构 面 C; 上 对 所 
有 资源 的 最 终 标 注 情况 如 下 : 

1 


Q'(u;,C ,,:) = OU, C;,:) += ol(u, C;,:) 
/ / ro / 


(6) 
6.5 推荐 准确 性 的 对 比分 析 
图 2 显示 了 准确 率 - 召 回 率 曲线 的 仿真 结果 ，, 每 条 
曲线 代表 一 种 算法 在 不 同 N 上 的 准确 率 、 召 回 率 变 化 。 
MCN 较 小 时 , 准确 率 较 高 而 召回 率 较 低 ; 随 着 N 的 变 
K, 准确 率 下 降 ， 召回 率 上 升 。 曲 线 的 形态 越 靠 右上 
fü, 说 明 推 荐 效果 越 好 。 
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图 2 三 种 算法 在 准确 率 召 回 率 曲 线 上 的 对 比 


由 图 2 可 见 : 

结果 1: 本 文 提 出 的 MFT-CoSCIuTD 算法 在 推荐 
KEE 10 到 50 之 间 时 的 准确 率 和 召回 率 普 遍 好 于 另 
外 两 种 算法 ; MFT-CoSCIuTD 相 较 未 融合 信任 关系 的 
CoSCIuTD 算法 , 随 着 推荐 长 度 逐 渐 增 大 , 准确 率 提 
升 趋 于 稳定 , 平均 准确 率 相对 提升 幅度 (下 同 ) 为 
2.13%, 平均 召回 率 提升 2.45%。 说 明 多 构 面 信任 关系 
能 够 较 好 地 识别 用 户 间 的 兴趣 ,为 推荐 系统 提供 了 额 
外 的 信息 。 

结果 2: 没有 融合 信任 关系 的 CoSCIuTD. 算法 相 
较 考 虑 单一 构 面 信任 关系 的 STLCoSCIuTD 算法 性 能 
反而 更 好 ， 随 着 推荐 长 度 的 增加 差距 逐渐 减 小 。 这 说 
W: 仅 通过 单一 构 面 并 不 能 合理 定义 用 户 间 信 任 关系 ， 
错误 信息 的 融入 干扰 了 原先 凸显 的 用 户 与 资源 关系 ， 
从 而 导致 ST-CoSCIuTD. 算法 给 用 户 推荐 了 更 多 与 兴 
趣 无 关 的 资源 ; 而 随 着 推荐 长 度 的 增加 更 多 相关 资源 
的 出 现 前 弱 了 错误 信息 的 影响 , 使 得 差距 得 以 减 小 。 

3 对 比 了 三 种 算法 在 Fl 指标 上 的 性 能 。 
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图 3 三 种 算法 在 Fl 指标 上 的 对 比 
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由 图 3 可 得 分 析 结 果 如 下 : 

结果 3: MFT-CoSCIuTD 5j CoSCIuTD 相 比 平均 准 
确 率 相对 提升 幅度 达 2.29%， 当 N=50 时 提升 幅度 最 
K, 达 3.0696, 算法 推荐 准确 性 的 优势 随 推 荐 长 度 N 
的 增加 而 略 有 增加 。 进 一 步 说 明 融 入 多 构 面 信任 关系 
有 利于 推荐 准确 性 的 提升 。 

结果 4: ST-CoSCIuTD 与 CoSCIuTD 相 比 F1 平均 
下 降幅 度 达 6.61%， 当 N-10 时 下 降幅 度 最 大 ， 达 
12.88%。 下 降幅 度 随 着 推荐 长 度 N 的 增加 逐步 减 小 。 
进一步 说 明 仅 考虑 单一 构 面 信任 关系 反而 不 利于 推荐 
准确 性 提高 。 

仿真 结果 发 现在 N=20 Hf, MFTCoSCIuTD 算法 精 
确 度 Fl 能够 获得 最 大 值 ， 因 此 在 实际 应 用 中 ,最 理想 
的 推荐 长 度 应 为 N=20。 

此 外 , 为 了 避免 仿真 结果 受 标 签 筛选 的 影响 ,本 
文 特 在 其 他 筛选 条 件 不 变 情 况 下 进行 了 标签 出 现 次 
数 大 于 8 次 所 得 到 的 核心 子 集 Tag8 与 Tag20 的 仿真 
对 比 实 验 , 本 文 提出 的 MFT-CoSCIuTD 性 能 仍然 表 
现 最 佳 。 


7 结 i& 


为 了 解决 UGC 标签 在 张 量 模型 中 因 标 签 宛 余 及 
语义 模糊 所 导致 的 准确 性 下 降 问题 ,并 希望 能 够 更 好 
地 利用 信任 关系 , 在 通过 综合 标签 共 现 结合 谱 聚 类 解 
决 标签 元 余 等 问题 的 基础 上 , 提出 基于 标签 簇 的 信任 
张 量 ， 即 利用 聚 类 后 的 标签 簇 作为 信任 构 面 的 定义 依 
据 , 解决 了 目前 构 面 定义 困难 的 问题 。 在 信任 强度 的 
计算 上 , 将 信任 关系 分 为 簇 间 和 簇 内 关系 两 部 分 , 分 
别 借 鉴 TF-IDF 及 Pearson 相似 度 的 思想 定义 信任 张 量 ， 
以 此 解决 余弦 相似 度 计 算 信 任 强度 存在 局 限 性 的 问 
题 。 最 后 根据 协同 过 滤 的 思想 将 信任 张 量 作 为 信息 补 
充 融 入 张 量 分 解 后 的 推荐 模型 中 。 基 于 Last.fm 数据 集 
的 实验 表明 这 种 方法 能 够 充分 利用 标签 数据 以 及 好 友 
言 息 有 效 地 提高 推荐 准确 性 。 

随 着 在 线 社交 网 站 的 普及 ,基于 标签 和 信任 关系 
的 个 性 化 推荐 将 会 受到 更 加 广泛 的 关注 。 未 来 工作 将 主 
要 集中 在 根据 不 同 数据 集 来 进一步 验证 算法 有 效 性 。 
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Personalized Recommendation Algorithm of Multi-faceted Trust 
Tensor Based on Tag Clustering 


Chen Meimei Xue Kangjie 
(Glorious Sun School of Business & Management, Donghua University, Shanghai 200051, China) 


Abstract: [Objective] This paper aims to solve the low accuracy issue facing personalized recommendation algorithm 
of multi-faceted trust tensor based on tag clustering. [Methods] First, we proposed a new method to calculate 
multi-faceted trust based on tag clusters. Then, we introduced the TF-IDF and Pearson similarity to indicate strength of 
inter-cluster and intra-cluster trust. Finally, we built recommendation mechanism based on tensor decomposition to 
reflect the trust intensity from different facets. [Results] We examined the new algorithm with the Last.fm dataset. The 
precision, recall and F1 measures were better than traditional methods. Among them, the Fl measure was increased by 
2.29% on average. [Limitations] Our new algorithm needs to be examined with datasets from Weibo or Twitter. 
[Conclusions] The proposed algorithm could effectively increase the accuracy of recommendation by defining and 
quantifying trust relationship among users. It improves the user experience of social network systems. 
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